检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. Spark框架优化的大规模谱聚类并行算法

崔艺馨, 陈晓东

计算机应用 2020, 40 (1): 168-172. DOI: 10.11772/j.issn.1001-9081.2019061061

摘要（578）

PDF （683KB）（267）

为解决谱聚类在大规模数据集上存在的计算耗时和无法聚类等性能瓶颈制约，提出了基于Spark技术的大规模数据集谱聚类的并行化算法。首先，通过单向循环迭代优化相似矩阵的构建，避免重复计算；然后，通过位置变换和标量乘法替换来优化Laplacian矩阵的构建与正规化，降低存储需求；最后，采用近似特征向量计算来进一步减少计算量。不同测试数据集上的实验结果表明：随着测试数据集的规模增加，所提算法的单向循环迭代和近似特征值计算的运行时间呈线性增长，增长缓慢，其近似特征向量计算与精确特征向量计算取得相近的聚类效果，并且算法在大规模数据集上表现出良好的可扩展性。在获得较好的谱聚类性能的基础上，改进算法提高了运行效率，有效缓解了谱聚类的计算耗时及无法聚类问题。

参考文献 | 相关文章 | 多维度评价